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摘 要 : 雨 纹 会 严重 降低 拍摄 图 像 的 质量 ， 影 响 后 续 计 算 机 视觉 任务 。 为 了 提高 雨天 图 像 的 质量 ， 提 出 了 一 种 基于 
Transformer 的 单 图 像 去 雨 算法 。 首 先 ， 该 算法 通过 具有 窗口 机 制 的 Transformer 获得 大 范围 的 感受 野 ， 进 而 获取 十 
纹 特 征 的 上 下 文 信息 ， 提 高 模型 提取 雨 纹 特征 的 能 力 ; 其 次 ， 该 算法 通过 多 分 支 模块 提取 和 融合 不 同 种 类 、 不 同 层 
次 的 特征 ， 提 高 模型 对 复杂 雨 纹 信 息 的 表征 能 力 ; 最 后 通过 残 差 连接 融合 浅 层 特征 和 深层 特征 ， 补 全 深层 特征 中 缺 
失 的 细节 信息 , 增强 网 络 表达 能 力 。 在 公开 数据 集 Rain100L, Rain100H 和 私有 数据 集 Rain3000 上 的 实验 结果 表明 
该 方法 相 较 于 现 有 算法 ， 能 更 有 效 的 去 除 雨 纹 ， 同 时 更 好 的 恢复 图 像 中 丢失 的 背景 纹理 信息 。 峰 值 信 噪 比 和 结构 相 
似 度 (PSNR/SSIM) 分 别 达到 38.33/0.9855、28.42/0.9000、34.51/0.9643。 
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Multi-branch single image deraining network based on Transformer 
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Abstract: Rain streaks can seriously degrade the quality of captured images and affect subsequent computer vision tasks. In 
order to improve the quality of rainy images, this paper proposed a single-image deraining algorithm based on Transformer. 
First, the algorithm obtains a wide range of receptive fields through the Transformer with window mechanism, and then 
obtains the contextual information of rain streak features to improve the ability of the model to extract rain streak features; 
secondly, the algorithm extracts and fuses different kinds and levels of features through multi-branch modules to improve the 
model's ability to characterize complex rain streaks information; finally, this paper fuses the shallow features and deep features 
through residual connections to complete the missing details in the deep features, which enhances the expression ability of 
the network. The experimental results on the public datasets Rain100L, Rain100H and the private dataset Rain3000 show that 
the method is more effective in removing rain streaks compared to existing algorithms while better recovering the lost background 
texture information in the images. PSNR and SSIM have respectively reached 38.33/0.9855, 28.42/0.9000 and 34.51/0.9643. 
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虽然 这 些 方法 取得 一 定 的 效果 ， 但 在 雨 纹 密集 ， 复 杂 和 背景 


0 引言 难 识别 的 地 方 ， 存 在 去 雨 不 足 或 过 度 去 雨 的 问题 。 
雨天 作为 一 种 常见 天 气 ， 会 降低 所 拍摄 图 像 或 视频 的 质 深度 学 习 中 基于 卷 积 神经 网 络 (convolutional neural 
量 ， 限 制图 像 分 类 ， 目 标 检测 ， 图 像 分 割 等 计算 机 视觉 任务 networks , CNN) 的 方法 具有 强大 的 特征 表示 能 力 ， 能 有 效 的 
的 应 用 场景 。 相 比 于 视频 ， 单 图 像 缺 少时 序 信息 ， 因 此 研究 学 习 从 有 雨 图 像 到 无 雨 图像 的 非 线 性 映射 。Fu 等 人 中 提出 的 
单 图 像 去 十 更 具有 挑战 性 。 DerainNet 模型 首次 将 CNN 方法 应 用 到 单 图 像 去 雨 领域 ， 该 
单 图 像 去 雨 任务 主要 是 依据 雨 纹 及 其 周围 的 像素 信息 恢 模型 先 将 输入 图 像 分 为 高 频 细节 层 和 低频 基础 层 ， 高 频 


景 信息 ， 其 方法 大 致 分 为 传统 方法 和 深度 学 习 的 方 于 训练 去 雨 网 络 ， 低 频 层 用 于 图 像 增强 。Du 等 人 [31 认为 雨 纹 
法 [LI。 传 统 方法 是 依据 雨 纹 的 先 验 知识 设计 模型 。Chen 等 。 在 不 同 的 空间 位 置 和 通道 是 有 差异 的 ， 因 此 提出 自 适应 雨 

人 根据 雨 纹 的 几何 尺寸 具有 相似 性 ， 构 建 低 秩 表示 的 方法 密度 的 条 件 变 分 单 图 像 去 雨 网 络 。Zhang 等 人 外 同样 从 密度 
去 除 雨 纹 。Li 等 人 外 从 雨 纹 特征 的 稀疏 性 入 手 ， 使 用 稀 玻 判 的 角度 考虑 ， 构 建 多 流 密 度 估 计 器 实现 自 适 应 图 像 去 雨 。He 
别 字 典 去 雨 。Li 等 人 器 提 出 高 斯 混合 模型 用 于 相似 块 补 全 图 等 人 0 联合 考虑 雨 纹 密度 和 雨滴 尺寸 , 提出 多 尺度 雨 纹 密度 
像 的 方法 ， 实 现 单 图 像 去 雨 。Kang 等 人 [SI 首先 将 图 像 分 解 成 估计 模块 指导 网 络 去 雨 。Jiang 等 人 0 进一步 研究 了 多 尺度 模 
高 低频 ， 其 次 采用 稀 玻 编码 处 理 高 频 信息 的 方法 去 除 雨 纹 。 型 对 去 十 任务 的 有 效 性 , 提出 多 尺度 渐进 融合 模型 。Wang 等 
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注意 模块 学 习 不 同 尺 度 的 特征 。 
的 方法 取得 一 定 的 效果 , 但 CNN 通过 卷 
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时 仍然 有 限 ， 并 且 会 减弱 特征 
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期 流行 的 Transformer03 具 有 的 全 局 计算 特性 , 能 有 效 


长 期 依赖 ， 造 成 去 雨 不 
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力图 和 特征 长 


E 离 依赖 ， 已 被 


TT ERA 2S0, 


等 领域 .但 是 Transformer 不 加 限制 的 计算 方式 


受 Swin Transformer 1f] JA 


并 不 适合 单 图 


fi dn 


任务， 大 此 ， 


发 ,本 文 结合 Transformer、 窗 口 机 制 以 及 去 雨 任务 的 特性 设计 
了 一 种 多 分 文 窗口 
window Transformer 
MBWTNet)。 该 模型 


网 络 (Multi-branch 


network for single image deraining ， 


Transformer Æ 


的 特征 提取 模块 具有 感受 野 大 ， 雨 纹 特 
,多 分 支 模块 能 自 适应 的 学 习 不 同 种 类 ， 


丰富 特征 表达 。 实验 结果 表明 ， Ax 


除 复杂 雨 纹 又 能 较 好 的 恢复 被 雨 纹 遮挡 


征 表达 能 力 强 的 优点 
不 同 层次 的 雨 纹 特征 
的 方法 既 能 有 效 的 去 
的 背景 纹理 ， 与 目 育 


1 主流 的 单 图 像 去 雨 模型 相 比 ， 获 得 了 最 


佳 的 去 雨 效 果 
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1 ”Transformer 介绍 


1.1 


Transformer 是 Vaswani 等 人 03 提 出 用 于 解决 
理 (natural language processing, NLP) 中 循环 神经 网 络 不 能 并 
行 处 理 的 问题 , 其 标准 模型 如 轿 


Transformer 模型 介绍 
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首先 将 图 像 分 割 成 不 重 姜 的 图 像 块 ， 再 将 图 像 块 拉 伸 
位 置 编码 , 得 到 一 维 的 向 量 。 


嵌入 
究 大 


后 续 视 觉 Transformer If] 


都 使 ) 


类 器 处 理 Encode 


这 种 方式 输入 图 像 或 特征 图 。 对 于 输出 ，VIT 通过 分 


的 输出 特征 ， 得 到 预测 结果 。VIT 和 


MBWTnet 都 采用 了 相对 位 
自 注意 力 中 添加 位 
1.2 多头 自 注 意 力 机 制 介绍 

多 头 自 注 意 力 是 Transformer 的 重要 组 成 部 分 , 其 结构 如 


图 2 Bras. 


首先 ，Encode 的 输入 矩阵 通过 3 个 不 同 权重 的 变换 矩阵 
得 到 的 查询 矩阵 2 ， 键 矩阵 K AEE V 。 然 后 通过 点 积 注 
意 力 ， 如 表达 式 (D)， 计 算 自 注 意 力 特 征 图 ， 多 头 自 注 意 力 是 


然 语 言 处 


1 所 示 , 由 左 部 的 Encode 和 


右 部 的 Decode 组 成 。 在 Encode 阶段 ， 首 先 将 句子 中 的 单词 


转换 成 词 向 量 ， 然 后 通过 自 注意 力 模块 ， 残 差 连接 和 层 归 一 
化 得 到 全 局 自 注 意 力 特征 图 ， 最 后 通过 前 馈 网 络 ， 残 差 连接 


和 层 归 一 化 获得 Encode 的 输出 。 与 Encode 相 比 ，Decode 只 


多 了 一 个 注意 力 模块 和 归 一 化 层 用 于 接收 Encode 输出 。 


Decode 的 输入 除了 Encode 的 输出 


还 
输出 。Decode 输出 的 是 对 应 位 置 的 概 
使 


包括 上 一 个 Decode 的 
率 分 布 。 由 于 并 行 输入 
用 位 置 编码 的 方式 保留 


缺少 单词 的 位 置 关 系 ，Transformer 
位 置 关 系 。 
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标准 Transformer 模型 


Standard Transformer model 


Dosovitskiy 等 人 04 提 出 的 VIT 模型 是 首次 直接 使 用 
Transformer 的 Ecode 部 分 用 于 图 像 分 类 ， 为 后 续 视 觉 
Transformer BEE J fio Jy J XEM Transformer 的 输入 ，VIT 


p 


fiE Ad 


式 (1) 中 ， 


通过 多 组 变换 矩阵 和 等 式 (1) 得 到 多 个 相互 独立 的 注意 力 特 
最 后 通过 拼接 和 全 连接 融合 不 同 的 注意 力 特征 图 得 到 
多 头 注意 力图 。 


编码 ,但 不 同 的 是 MBWTNet 在 


编码 。 
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图 2 ”多头 自 注意 力 机 制 
Fig.2 Mutil-head self-attention 


Attention(Q,K, V) = softmax | QK 


y a) 


Q, K, VÆREHARKZREE, 0-5 K 转 


置 的 点 乘 得 到 的 相关 性 矩阵 记录 了 所 有 向 量 之 间 的 相关 性 ， 


与 V 点 乘 得 到 


而 2 和 天 来 自 同一 个 矩阵 的 变换 
是 输入 向 量 之 间 的 相关 性 。 为 了 避免 softmax(*) 造成 梯度 消失 ， 
使 用 一 个 系数 等 效 缩放 相关 性 矩阵 。 


全 局 


因此 ， 相 关 性 矩阵 描述 的 


经 过 激活 的 相关 性 矩阵 
自 注意 力图 。 多 头 自 注 意 力 是 Transformer 


的 全 局 感受 野 和 特征 长 距离 依赖 的 主要 来 源 。 
2 多 分 支 窗口 Transformer 去 雨 网 络 


Transformer 的 全 局 计算 的 方式 使 模型 


有 全 局 感受 野 


和 特征 长 期 依赖 ， 但 会 造成 一 定 的 特征 元 余 ， 不 适合 直接 用 


于 单 图 像 去 雨 。 


本 文 提 出 一 种 多 分 支 窗口 Transformer 去 雨 网 


络 MBWTNet， 该 网 络 模型 通过 窗口 限制 计算 获得 较 大 的 感 


受 野 ,充分 利用 


Transformer 与 多 分 支 结 合 的 优势 以 及 残 差 连 


接 提取 不 同 层次 的 特征 。 如 图 3 所 示 ，MBWTNet 由 基于 


Transformer 的 特征 


pi 取 模块 (Transformer-based feature 


extraction block，TFEB)、 多 分 支 特征 融合 模块 (Multi-branch 


fusion module，MBEFM) 和 残 差 连接 构成 。 在 CNN F, RAE 


接 是 为 了 解决 较 深 网 络 中 梯度 消失 的 问题 ， 
更 关注 浅 层 特征 的 作用 , 即 补 全 深度 特征 中 缺失 的 纹理 信息 。 
MBWTNet 采 用 三 个 顺序 排列 的 MBFM 模块 提取 和 融合 不 同 
层次 的 特征 , 其 中 ,前 两 


本 文中 残 差 连接 


个 MBFM 的 输出 通过 残 差 方式 传递 


到 网 络 深层 ， 实 现 浅 层 特征 与 深层 特征 的 充分 融合 。 第 三 个 


MBFM 的 输出 被 输入 到 三 个 并 列 的 


TFEB， 通 过 增加 网 络 的 


深度 和 宽度 ， 同 时 提取 不 同 种 类 的 特征 。 网 络 的 计算 过 程 如 


AQ). 


X= Fg x.t 212,3 


x, 2TFEB, (x,  TFEB (x3) + TFEB, (x3)  TFEB,(x;)) 


Q) 


xy, = TFEB; (x, + x4) 


式 (2) 中 ， 


RO 是 多 分 支 特征 融合 模块 ，TFEB,(O 是 特征 
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提取 模块 ，* 是 中 间 变 量 ， 拥 有 相同 的 尺寸 和 通道 ， 其 中 加 
为 输入 的 有 十 图 像 ， xz 为 预测 图 像 。 
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基于 Transformer 的 多 分 支 去 雨 网 络 模型 

Fig.3 Transformer-based multi-branch deraining network 
2.1 特征 提取 模块 TFEB 
于 卷 积 操作 无 法 充分 获得 像素 之 间 的 特征 联系 造成 一 
些 基于 CNN 的 方法 去 除 长 条 状 雨 纹 的 效果 不 理想 ， 即 模型 
EXE e WAS E EXE BE JE Hj. Transformer 的 全 局 计算 方式 能 
分 获得 像素 之 间 的 联系 ， 但 会 造成 特征 元 余 。 针 对 该 问题 ， 
本 文 在 swin TransformerD 的 基础 上 构建 了 一 个 特征 提取 模 
块 。 该 模块 采用 swin Transformer 的 窗口 滑动 机 制 限制 计算 
量 和 实现 窗口 间 信 息 的 交流 。swin Tansformer 会 造成 一 定 空 
间 信 息 的 损失 ， 针 对 该 问题 ， 本 文 提出 一 个 图 像 块 拼接 模块 
(Patch Splicing) 避 免 空 间 信息 损失 。 特 征 提取 模块 如 图 3 中 
TFEB 部 分 所 示 ， 特 征 图 依次 通过 分 割 模块 (patch partition), 
维度 调整 模块 (linear embedding), 4 F i8 z/) f$ 的 
Transformer 模块 (swin-Transformer block, SWT) RZ Ik} 
接 模块 (Patch Splicing)， 完 成 特征 的 提取 。 

patch partition 先 将 输入 尺寸 为 HXW XC 的 特征 图 分 割 
成 不 重用 的 Patch I, WRG, P HA W 是 输入 图 
ZRT, Wp 和 Hp 为 Patch 块 的 尺寸 。 

H 


w 
Ui, B, BF) = Fa Qa) XH (3) 


p P 


ÊE npa (P) 51,23, (4) 
由 于 Transformer 只 接受 一 维 向 量 。Patch Partition 再 通 


过 Fas) 将 Patch Et P e gts 按 通道 方向 转换 成 1D 的 向 量 


Peg ， 该 向 量 可 以 视 为 一 个 “token”。Patch 块 的 尺寸 与 
位 置 编 码 紧 密 相 关 , Patch 块 的 尺寸 越 大 , 位 置 编码 的 尺寸 越 
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征 。 由 于 窗口 边界 缺少 足够 的 纹理 信息 用 于 特征 提取 ， 受 


swin Transformer07 的 启发 ， 该 模块 的 第 二 个 子 模块 采用 滑动 


的 多 头 自 注意 模块 (SW-MSA), 即 窗口 位 置 与 第 一 个 不 同 , 如 
图 4(b) 所 示 。 滑 动 窗口 机 制 使 边界 像素 信息 在 同一 个 窗口 内 ， 


H 
间 信 息 交 流 。 基 于 滑动 窗口 


完成 边界 雨 纹 特征 的 学 习 和 窗口 


Z = MLP(LN(Z 


Z" «SW -MSA(LN(Z)) - Z 


的 Transforme 模型 计算 过 程 如 式 (6) 所 示 。 


Z » W-MSA(LN(Z)) Z^ 


)e«z 


(6) 


l+ l+ 


Zi MLP(1N(Z ) tZ 


式 (6) 中 ， zeie 表示 多 头 注意 力 的 输出 ， 


zi ego ooso 表示 全 连接 的 输出 。 


与 标准 的 Transformer 中 多 


头 注意 力 模块 不 同 ,W-MSA 使 | 


的 注意 力 模块 如 式 (7) 所 示 。 


Attention(Q, K,V) — SofiMax( QK" Ia B)v (7) 


式 (7) 中 ，Q,K,Ve RY*% , o 代表 查询 (Query)， 代表 


关键 字 (Key),，V 代表 值 (Veal)， 


M? 是 参与 计算 的 patch 块 


数量 ( 7x7)，d =32 是 Query, Key IÈ Veal 的 维度 ，B eR 
是 位 置 编码 。W-MSA 通过 限制 单 次 参与 self-attention 计算 的 


patch 块 数量 ， 减 少 计 算 量 ， 同 时 避免 计算 元 余 特 征 。 


"i I 
mS: q BEER OEC 


z"| 


(a) 结 构 


A patch 


_ 


转 


Local window 


图 


(b) 窗 口 滑动 


Fig.4 Sliding window-based 


不 忆 


图 4 基于 滑动 窗口 的 Transformer 模块 (SWT) 


Transformer block (SWT) 


输出 尺寸 与 输入 尺寸 一 臻 是 
块 的 堆 受 的 必要 条 件 ， 也 有 利于 


小 。 图 像 分 类 等 其 他 计算 机 视觉 任务 中 更 多 关注 的 是 语义 信 


息 ， 例 如 图 像 分 类 模型 VIT09 和 图 像 分 割 ng 的 patch 块 都 设 
为 16X16， 位 置 编码 的 尺寸 为 ;xi5 ， 而 在 图 像 去 雨 任务 中 
更 多 关注 的 是 像素 信息 和 位 置信 息 。 因 此 ， 本 文中 patch He 
的 尺寸 为 3X3， 即 w=3，H,=3。 


经 过 Patch Partition 分 割 后 的 向 量 维度 为 3x3xC ， 考 虑 
到 高 维 具 有 更 高 的 特征 表达 能 力 ， 有 利于 自 注意 力 模块 学 习 
雨 纹 特征 ， 本 文 在 维度 调整 模块 Linear Embedding 中 通过 全 
连接 B0) 将 向 量 的 维度 映射 到 3x3xCx2 ， 即 式 (5) 中 


Ze ROOD 。 


Z= nexa (Ê) (5) 

标准 的 Transformer 具有 全 局 关注 ,特征 远 距 离 依赖 的 优 
点 , 但 存在 计算 量 大 , 模型 部 署 难 的 问题 。 受 文献 [17] 启 发 ， 
本 文采 用 滑动 窗口 的 方式 限制 计算 , 模型 结构 如 图 4(a) 所 示 ， 
每 个 子 模块 由 两 个 LayerNorm(LN) 层 ， 一 个 基于 7x7 窗 口 的 
多 头 自 注意 力 模块 (W-MSA) 和 一 个 MLP 构成 ， 其 中 多 头 注 
意 力 的 头 数 为 3。patch 块 包含 3x3 个 像素 ， 因 此 7x7 窗 口 的 
感受 野 为 21X21。 相 比 于 卷 积 层 , 基于 窗口 的 Transformer 能 
获得 较 大 的 感受 野 ， 进 而 更 充分 的 提取 窗口 内 不 同 尺 寸 的 特 


特征 提取 模块 可 直接 用 于 模 
融合 不 同 层次 的 特征 。 图 像 


块 拼接 模块 patch splicing 首先 通过 全 连接 Ra 0 将 经 过 


Transformer 计算 的 高 维 向 量 的 维度 压缩 至 3x3xC 。 这 不 仅 


考虑 了 patch splicing 模块 的 输入 是 高 维 向 量 ， 不 符合 构建 
patch 块 的 要 求 ， 也 考虑 了 全 连接 能 自 适 应 的 保留 重要 特征 ， 
) 按 通道 方向 将 向 量 转换 成 
patch 块 ， 即 wsRss<c 。 最 后 将 这 些 patch 块 拼接 成 特征 图 


抑制 次 要 特征 。 然 后 通过 Faust 


jsRwc 。 上 述 计 算 过 程 如 式 


(8) 所 示 ， 其 中 EResc' 。 


S, = Fineas (Sin) 


S, = Fospap 


fu Fi. 


2.2. 多 分 支 特征 融合 模块 
十 纹 图 像 包 含 雨 纹 尺 寸 、 形 


NO) (8) 
CS) 


状 等 不 同 种 类 特征 ， 背 景 


包含 不 同 层次 的 特征 。 多 头 自 注 
习 提 取 和 融合 不 同 种 类 的 特征 ， 


意 力 利用 网 络 不 同 初始 值 学 
但 该 方法 无 法 学 习 提 取 和 融 


合 不 同 层次 的 特征 。 为 了 更 好 地 


满足 去 雨 任务 中 特征 多 样 性 


的 需求 ， 本 文通 过 研究 融合 多 个 TFEB 模块 ， 提 升 模型 去 雨 的 


性 能 ， 因 此 本 文 设计 和 讨论 了 三 种 多 分 支 结构 ， 如 图 5 所 示 。 


5(a) 是 同 构 多 分 支 结构 。1 


于 各 分 支 网 络 初始 值 不 同 ， 


且 相 互 独立 ， 训 练 时 向 着 不 同 的 


特征 子 空间 学 习 。 因 此 分 支 


数 越 多 ， 提 取 的 特征 越 丰 富 ， 去 
越 多 , 并 不 意味 着 网 络 越 好 , 2.4 


雨 性 能 越 好 ， 但 是 分 支 数量 
节 的 多 分 支 实验 证 明了 这 个 
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Ax 


观点 。 图 5(b) 拥 有 和 图 5(a) 同 等 的 参数 量 ， 每 个 分 支 采用 相 
同 的 结构 ， 但 图 5(b) 的 分 支 数 只 有 图 5(a) 的 一 半 。 图 5(c) 与 
图 5(b) 拥 有 相同 的 分 支 数 ， 相 同 的 参数 量 ， 但 图 5(c) 的 每 个 
分 支 采用 不 同 的 结构 ， 该 结构 计算 过 程 如 式 (9) 所 示 。 
fais, = TFEB, (TFEB! (x) + TFEB? (TFEB? (x)) 
+TFEB; (TFEB} (TFEB: (x)))) ©) 
式 (9) 中 ，TFEBi(.) 表示 特征 提取 模块 。x 表示 多 分 支 模块 
MBFM HJA, Suru 是 输出 。 由 于 每 个 分 支 具有 不 同 的 初始 
值 和 结构 ， 导 致 模块 能 自 适 应 的 学 习 不 同 种 类 ， 不 同 层 次 的 
特征 ， 丰 富 输 出 的 特征 。 通 过 特征 相 加 的 方式 并 不 能 充分 融 
合 不 同 分 支 的 特征 ， 本 文通 过 添加 一 个 特征 提取 模块 ， 实 现 
特征 充分 融合 。 


S 


E e om en 

X6 i ; 

| | 

2 z | B EAS NBEN ENEA 
E 1 | 
j- M 
G) 同 构 分 支 8 O 同 构 分 支 b 。。(o) 异 构 分 支 模块 


图 5 三 种 多 分 支 结构 图 
Fig. 5 Three kinds of multi-branch structure diagram 
2.8 损失 函数 
现 有 图 像 去 雨 模型 的 损失 函数 大 多 数 使 用 的 是 已 被 
Ren 等 (引证 明 有 效 的 结构 相似 度 (SSIM structural similarity), 
该 损失 函数 虽然 能 获得 较 好 的 结构 相似 度 ， 但 生成 图 像 的 颜 
色 存 在 一 定 程度 的 失真 ， 造 成 峰值 信 品 比 (PSNR) 较 低 。 在 这 
项 工作 中 ， 本 文 使 用 的 损失 函数 的 数学 表达 式 如 式 (10) 所 示 。 
Loss, = L(SDnet(O), B) 
Lossssm —1— SSIM (SDnet(O), B 
Loss. A iie di (10) 


Loss,, = &x Loss, + B x Lossssm Ax Lossu, 


X00), «-02, 8-4, 2:1, O ÆA NBMZ, B 是 对 
应 的 背景 图 。 是 绝对 偏差 和 (Sum of Absolute Difference, 


SAD)， 是 基于 两 张 图 像 的 像素 差 计 算 的 。 结 构 相 似 度 
(Structural Similarity，SSIM) 是 评价 两 张 图 像 内 容 的 结构 相似 
性 的 指标 ， 其 负数 常 被 用 作 损 失 函 数 ， 表 达 式 如 式 (10) 中 
LossSSIM 所 示 。 身 份 损失 (identity loss, ide) 是 源 于 CycleGAN 
09 中 用 于 约束 生成 图 像 的 颜色 损失 ， 本 文 将 其 用 于 约束 去 
后 图 像 的 颜色 差异 ， 表达 式 如 式 (10) 中 Losside Brzs , (EE 
图 作为 模型 的 输入 , 生成 的 结果 与 标签 通过 LI1 计算 身份 损 
本 文通 过 最 小 化 三 种 损失 值 的 和 ， 使 模型 保持 图 像 结构 
的 同时 ， 减 小 颜色 差异 ， 提 高 模型 去 雨 性 能 。 


3 ”实验 


3.1 数据 集 

现 有 的 公开 数据 集 Rain100L 和 Rain100HP297£ ti. 1800 
对 训练 集 和 200 对 测试 集 组 成 的 数据 集 ， 它 们 是 在 相同 的 背 
景 图 像 上 添加 不 同方 向 的 雨 纹 。 Rain100L 是 去 南 相 对 简单 的 
数据 集 , 每 张 图 片 包含 有 1 种 方向 的 雨 纹 。Rain100H 是 去 雨 
相对 困难 的 数据 集 ,每 张 图 片 包含 5 种 方向 的 雨 纹 。Rain100L 
和 Rain100H 提供 两 种 难度 的 数据 集 用 于 评估 网 络 的 性 能 。 
但 这 两 个 数据 集 都 存在 训练 集 和 测试 集 背景 相似 的 问题 5, 
这 会 降低 模型 的 可 信和 度 。 
针对 这 个 问题 ， 文 献 [18] 通 过 剔除 546 张 相似 的 背景 ， 
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以 此 提高 数据 集 的 质量 。 但 这 会 降低 样本 量 ， 不 利于 模型 的 
泛 化 。 本 文 使 用 完全 的 Rain100H 和 Rain100L 训练 和 测试 模 
型 ， 公 平 的 对 比 现 有 的 主流 模型 。 此 外 提出 一 个 全 新 的 数据 
集 用 于 提高 模型 的 可 信和 度 。 该 数据 集 首先 从 内 容 丰 富 的 
ImageNet 中 随机 选取 10 万 张 图 片 ， 然 后 从 具有 825 张 雨 纹 
的 EfficientderainP'!rp p gue 1 至 4 种 雨 纹 添加 到 选取 
图 片 中 ， 最 后 从 10 万 对 数据 集中 选取 前 3400 对 合成 的 图 
像 作为 数据 集 ， 其 中 训练 集 3000 X, 测试 集 400 对 。 本 文 将 
该 数据 集 命名 为 Rain3000， 如 图 6 所 示 。Rain3000 既 包含 简 

的 雨 纹 ， 也 包含 相对 复杂 的 雨 纹 ， 这 有 利于 拟 合 真实 雨 图 


PS 


c 


. 
特征 分 布 。 数 据 集 的 参数 如 表 1 所 示 。 


图 6 数据 集 Rain3000 
Fig.6 Data set Rain3000 
del 数据 集 对 比 


Tab. 1 Comparison of data sets 
数据 集 名 称 训练 集 测试 集 ”图 像 尺 寸 ” 雨 纹 种 类 
Rain100L 1800 200 321 X481 1 
Rain100H 1800 200 321 X481 5 
Rain3000 3000 400 256X256 1-4 


up x de 
Bm nom oz 
6 


为 了 验证 所 提 数 据 集训 练 网 络 的 有 效 性 ， 本 文 首先 通过 
在 数据 集 Rain3000, RainL 00L, Rain1 00H 分 别 训 练 DCSENU2), 
MPRnet?!fll PRENet24， 然 后 在 真实 十 图 上 测试 ， 结 果 如 图 
7 所 示 。 通 过 Rain3000 进行 训练 ，DCSFN 模型 能 很 好 的 去 
除 不 同形 状 , 大 小 的 雨 纹 , 保留 背景 信息 , MPRNet 和 PRENet 
能 去 除 较 小 ,更 接近 自然 的 雨 纹 , 这 说 明 数 据 集 Rain3000 能 


更 好 的 拟 合 自然 界 雨 纹 特征 的 分 布 。 


Rainy Image DCSFN 


MPRnet PRENet 


Rain3000 


Rain100L 


CN 


图 7 不 同 数据 集 泛 化 能 力 对 比 

Fig.7 Comparison of generalization ability of different datasets 
3.2 实验 设置 

本 文 实验 环境 为 GPU 显卡 Tesla V100 16G ,内存 32GB， 
使 用 pytorch 深度 学 习 框架 ， 版 本 号 Pytorch 1.7.0, batch size 
设置 为 5, 总 共 训 练 500 个 epoch。 学 习 率 的 初始 值 为 5x10* ， 
分 别 在 总 迭代 次 数 的 3/5 和 4/5 时 衰减 为 5x105 和 5x10s 。 本 
文 在 据 集 Rain100L, Rain100H 和 Rain3000 上 对 比 主流 算法 ， 
在 数据 集 Rain3000 上 进行 消融 实验 。 
本 文 使 用 已 被 广泛 用 于 评估 去 雨 性 能 结构 相似 性 (SSIM) 
和 峰值 信 品 比 (PSNR)。SSIM 是 度量 两 张 图 像 内 容 ， 纹 理 的 
相似 性 指标 。SSIM 最 大 值 是 1， 越 接 近 于 1， 表 示 两 张 图 片 
的 越 相 似 。PSNR 是 基于 两 张 图 片 之 间 的 像素 误差 计算 的 ， 
误差 越 小 ， 值 越 大 ， 图 片 越 相似 ， 去 雨 的 效果 越 好 ， 反 之 图 
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像 去 雨 的 效果 越 差 。 

3.83 ”对 比 实验 
为 了 验证 MBWTNet 的 优越 性 , 本 文 在 数据 集 Rian100L， 

Rain100H 和 Rain3000 上 对 比 了 如 下 6 种 先进 的 去 雨 方法 : 

a) RESCAN: recurrent squeeze-and-excitation context agg- 
regation net method?! (ECCV，2018)， 使 用 递归 结构 分 多 个 
阶段 去 雨 , 每 个 阶段 使 用 多 个 具有 SE(Squeeze-and-Excitation) 
模块 和 膨胀 卷 积 的 上 下 文 聚合 网 络 ， 此 外 ， 该 网 络 还 设计 了 
一 个 记忆 单元 用 于 增强 不 同 阶段 之 间 的 联系 。 

b) GCANet: gated context aggregation network Po(WACM， 
2019), 提出 一 种 使 用 平滑 扩张 卷 积 的 上 下 文 聚 合 网 络 用 于 去 
雾 ， 解 决 了 因 膨 胀 卷 积 引起 的 栅 格 化 。 该 方法 同样 适用 图 像 
去 雨 。 

c) NLEDN: non-locally enhanced encoder-decoder network" 
(ACMMM, 2018), 该 方法 提出 非 局 部 增强 自 编码 网 络 使 用 区 
域 级 非 局 部 增强 ,提高 捕获 空间 上 下 文 远 程 依赖 关系 的 能 力 ， 
此 外 使 用 串 连 不 同 尺 度 区 域 的 方式 增强 区 域 间 交流 。 

d) PREnet: progressive image deraining network methodP^! 
(CVPR，2019)， 提 出 一 个 多 阶段 去 雨 的 基线 模型 ， 每 个 阶段 
的 输入 是 原始 十 图 和 上 个 阶段 输出 的 拼接 ， 此 外 ， 还 使 用 一 
个 LSTM 挖掘 不 同 阶段 之 间 的 深层 特征 。 

e) DCSEN: deep cross-scale fusion net-work for single 
image rain removalU?! (ACMMM, 2020), EH — PRERA 
合 方法 来 学 习 不 同 尺 度 之 间 的 内 部 特征 联系 ， 此 外 ， 使 用 密 
集 连 接 增强 远程 空间 依赖 性 。 

f) MPRnet: multi-stage progressive image restoration?! 
(CVPR，2021)， 提 出 一 种 多 阶段 渐进 修复 模型 用 于 平衡 修复 
图 像 时 空间 细节 和 上 下 文 信息 ， 每 个 阶段 都 使 用 标签 进行 监 
督 ， 此 外 ， 其 夸 阶 段 聚 合 多 尺度 特征 的 策略 实现 不 同 阶段 间 
信息 交换 。 


$ 


表 2 与 其 他 算法 对 比 结果 


Tab.2 Comparison results with other algorithms 


、 Rain3000 Rain100L Rain100H 

方法 SSIM PSNR SSIM PSNR SSIM PSNR 
RESCAN 0.9248 30.75 0.9629 33.99 0.7612 23.98 
NLEDN 0.9554 33.44 0.9806 37.2 0.8654 27.21 
GCANet 0.9354 31.86 0.976 36.19 0.8203 25.99 

PREnet 0.9547 32.81 0.9787 35.94 0.8661 26.1 
DCSFN 0.9539 33.33 0.9821 37.603 0.886 27.76 
MPRnet 0.9531 33.83 0.970 37.81 0.8484 26.55 
MBWTNet 0.9643 34.51 0.9853 38.33 0.9000 28.42 


表 2 中 评价 指标 最 优 值 用 加 粗 表 示 ， 次 优 值 用 下 划 线 表 
示 。 分 析 结 果 可 知 , 本 文 的 算法 在 数据 集 Rain3000、Rain100L 
和 Rain100H 上 均 获 得 最 好 的 性 能 。 在 去 雨 难度 相对 简单 的 
Rain100L 数据 集 上 ，PSNR 能 达到 38.33dB。 在 去 雨 任务 困 
WERI Rain100H 数据 集 上 ，PSNR 能 达到 28.42dB。 在 雨 纹 特 
征 复杂 的 Rain3000 E, PSNR 达到 34.51dB。 本 文 的 算法 在 
数据 集 Rain100H 上 的 优势 最 明显 ， 相 比 于 2018 年 的 
RESCAN 网 络 ， 评 价 指标 PSNR 和 SSIM 分 别提 升 4.44dB， 
0.1388， 相 比 于 最 新 的 MPRNet 模型 ，PSNR 和 SSIM 分 别提 
FF 1.87d4B，0.0516， 相 比 于 次 优 的 DCSFN, PSNR 和 SSIM 
在 分 别提 升 0.66dB ,0.014。 这 表明 , 相 比 于 RESCAN 和 GCAN 
使 用 膨胀 卷 积 获得 的 感受 野 ，MBWTNet 拥有 更 广阔 的 感受 
野 ， 更 强 的 特征 表示 能 力 ; 相 比 于 PREnet，DCSFN 和 
MPREnet 增强 特征 依赖 的 方式 ，MBWTNet 拥有 更 强 的 特征 
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图 8 展示 了 各 个 算法 去 雨 的 视觉 效果 。 可 以 看 出 ， 
RESCAN 去 雨 后 的 图 像 存 在 伪 影 ,NLEDN,CGAN,DCSFN， 
MPRNet 虽然 取得 了 较 好 的 去 十 效果 ， 但 仍然 有 一 些 长 条 状 
的 雨 纹 未 去 除 。PREnet 虽然 能 去 除 雨 纹 ， 但 也 去 除了 背景 中 
一 些 纹理 细节 。 这 六 种 模型 在 恢复 效果 上 都 存在 一 定 的 不 足 ， 
而 MBWTNet 既 能 很 好 的 去 除 雨 纹 又 能 较为 满意 的 恢复 纹理 
细节 ， 这 进一步 证 明了 所 提 方 法 的 优越 性 。 

- z E34 F 


(c)NLEDN 
一 xl 


(d)CGAN 
E B 


(h) MBWTNet 


(g)MPRNet 
图 8 不 同 算法 在 数据 集 Rain3000 上 的 去 十 效果 
Fig.8 Deraining effect of different algorithms on dataset Rain3000 


模型 参数 量 和 预测 时 间 是 模型 实用 性 的 重要 指标 ， 图 9 


展示 了 各 个 模型 的 参数 量 和 实时 性 ， 从 图 中 可 以 看 出 ， 虽 然 
所 提 模 型 的 参数 量 较 大 ， 但 却 获得 了 最 快 的 推理 速度 。 这 是 


寻 为 基于 滑动 窗口 的 Transformer 和 全 连接 采用 了 和 矩阵 运算 
的 方式 ， 这 比 逐 步 卷 积 的 方式 要 高 效 。 图 9 也 进 一 说 明 所 提 
算法 的 实用 性 。 
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图 9 模型 的 参数 量 和 实时 性 对 比 
Fig.9 Comparison ofthe number ofparameters and 


the real-time performance of the model 

3.4 ”消融 实验 
3.4.1 分 支 数量 及 结构 对 去 雨 性 能 的 影响 

为 了 证 明 分 支 的 数量 和 结构 对 模型 去 南 性 能 的 影响 ， 本 
文 在 数据 集 Rain3000 上 做 了 两 组 对 照 实验 。 第 一 组 对 照 实验 
是 验证 分 支 结构 相同 ， 分 支 数量 对 模型 性 能 的 影响 ， 模 型 的 
其 他 部 分 不 改变 ， 只 将 多 分 支 融合 模块 MBFM 蔡 换 成 如 图 
5(a) 所 示 的 结构 ,更 改 分 支 的 数量 为 1,2,3,4,5,6 进行 实验 , K 
验 结果 如 图 10 所 示 。 从 结果 可 以 看 出 ， 随 着 分 文 数 增多 ， 模 


长 距离 依赖 ， 更 丰富 的 特征 表达 ; 相 比 于 NLEDN 使 用 多 尺 
度 实 现 增强 区 域 间 信息 交流 ，MBWTNet 的 滑动 窗口 方式 
有 更 充分 ， 更 直接 的 优点 。 


型 去 雨 的 性 能 越 好 ， 但 分 支 数 超过 4 之 后 ， 模 型 性 能 提升 有 
限 。 这 是 因为 相同 结 够 的 分 支 数 量 越 多 ， 分 支 提 取 的 特征 越 
相似 ， 这 限制 特征 多 样 性 的 进一步 表达 。 本 文 为 了 平衡 模型 
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的 规模 和 性 能 ， 本 文采 用 三 分 支 结 构 。 4 ”结束 语 
34.4 (5, 34.3)(6, 34.31) 

(4 342) m m 针对 图 像 去 雨 , 本 文 提出 一 种 多 分 支 窗口 Transformer 去 

Mai (3, 34.09) 十 网 络 (MBWTNeb， 该 网 络 首先 结合 Transformer 和 窗口 机 

= 制 构建 一 种 局 部 像素 直接 相关 ， 大 范围 感受 野 和 无 空间 信息 

E (2, 33.86) 损失 的 特征 提取 模块 ， 然 后 基于 该 模块 构建 了 一 种 多 分 支 模 

& 33 5 块 用 于 提取 和 融合 不 同 种 类 、 不 同 层次 的 特征 ;最 后 实用 前 

= 馈 网 络 和 跳跃 连接 构建 端 到 端的 去 雨 网 络 。 此 外 本 文 提 出 一 


Co 
ER 


个 基于 ImageNet 制作 的 去 雨 数 据 集 Rain3000， 该 数据 集 
3000 对 训练 集 和 400 对 测试 集 组 成 ， 具 有 背景 纹理 丰富 ， 雨 
纹 种 类 多 样 的 优点 。 本文 提 出 的 模型 在 公开 数据 集 Rain100L， 
Rain100H 和 私有 数据 集 Rain3000 上 对 比 了 几 种 深度 学 习 方 
分 支 数 个) 法 ， 在 视觉 观感 和 定量 指标 上 都 取得 了 最 好 的 结果 ， 但 存在 
图 10 分 支 数 实验 结果 定局 限 性 ， 例 如 ， 算 法 中 缺少 对 通道 相关 性 的 描述 ， 进 
Fig. 10 Graph of experimental results of branching number 的 研究 将 考虑 结合 全 局 通道 注意 力 和 窗口 通道 注意 力 ， 提 
第 二 组 对 照 实验 是 验证 参数 量 相同 时 ， 相 同 结构 的 分 支 。 升 模型 捕获 通道 相关 性 的 能 力 。 
与 不 同 结构 的 分 支 对 网 络 性 能 的 影响 ， 模 型 的 其 他 部 分 不 改 参考 文献 : 
变 , 只 改变 多 分 支 融合 模块 MBFM 的 结构 为 图 5(a)(b) 和 (ce)， 7 
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CD 
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实验 结果 如 表 3 所 示 , 表 中 MBFM-a 对 应 图 (a), 其 他 的 依 此 O 张 育 龙 , ER, 陈 明 康 ,等 . 图 像 去 雨 算 法 在 云 物 联网 应 用 中 的 研究 
类 推 。 综述 [J]. 计算 机 科学 , 2021, 48 (12): 231-242. (Zhang Yulong, Wang 
A3 分 支 结 构 实 验 结果 Qiang, Chen Mingkang, et al. Survey of intelligent rain removal 
Tab.3 Experimental results of branching structure algorithms for cloud-iot systems [J]. Computer Science, 2021, 48 (12): 
结构 名 称 SSIM PSNR 231-242.) 
MBFM-a 0.9636 3431 [2] KER, Mksh, T. 单 幅 图 像 去 雨 算法 研究 现状 及 展望 DI]. 计算 
MBFM-b 0.9640 34.44 机 应 用 研究 , 2022, 39 (1): 9-17. (Chen Shuman, Chen Wei, Yin Zhong. 
MBFM-c 0.9643 34.51 Research status and prospect of single image rain removal algorithm [J]. 
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